新词发现相关论文
针对现有舆情监测系统对于未登录词的钝化问题,构建了一个基于BERT模型(bidirectional encoder representation from transformers,......
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟......
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文......
文本数据的分词及单词向量化,是目前大多数中文自然语言处理任务的必要任务。词汇是最小的能够独立运用的语义单位,能够表达基础的......
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对......
随着数字人文的发展,利用计算机对人文学科进行辅助研究已经逐渐成为一种趋势。而古汉语领域,诗词曲赋、散文、戏曲、小说等文学作......
新词指的是在词典中不曾存在,但现在被人们广泛使用的词语。随着互联网的飞速发展,大量新词也随之涌现。这些新词的出现给诸多自然......
词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前......
名实体及新词是能够准确反映文本内容的基本信息元素,是正确理解文本的基础。名实体识别及新词发现技术广泛应用于诸多自然语言处......
中文分词是中文自然语言处理的基础性任务,分词的准确性直接影响到后续处理任务,分词的速度影响到后续的直接应用。成功的分词方法......
数字智能网络时代下大量文化数字化资源被汇聚,急需新手段新方法对文化资源进行有效合理的组织与管理。目前文化领域已经积累了大......
随着网络技术的普及、网络文化的多元化发展以及我国网民的日益增多,社交媒体工具成为人们日常生活必不可少的交流媒介,社交媒体文......
随着移动互联网时代的到来,微博等社交媒体平台异军突起,其连接的用户数以及用户产生的数据呈现出爆发式增长,由此而促成了社交媒......
随着社交媒体网站的发展,微博成了用户自由表达观点和情感的聚集地。如何从海量微博中分析用户情感成为一项十分有意义的研究工作......
随着近些年来网络上Web服务数量的爆发增长,如何从海量的服务里匹配到最佳的服务从而达到Web服务复用和Web服务组合的目的,成为了......
在互联网技术和移动应用飞速发展的环境下,网络文本的信息量正与日俱增。微博作为一种开放式的互联网社交平台,由于其使用便捷、用......
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对......
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热......
当前对新词发现、情感词极性标注与情感词库构建的研究比较多,却少有一个专门针对新情感词识别的方法。提出一种基于OC-SVM的新情......
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先......
随着我国环境政策法规数量的不断增加,采用纯人工方式对政策法规进行整理归纳和分析解读变得越来越困难。运用文本挖掘等计算机技......
辅助汉语学习研究作为一个重要的研究领域,已经在自然语言处理领域激发起越来越多人的兴趣。文中提出一个基于字分析单元的辅助阅读......
针对焊接专利中前沿技术挖掘的问题,提出一种基于改进词向量(Time word-embedding)、双向长短期记忆网络(Bi-LSTM)和条件随机场(CR......
随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向......
摘要:该文尝试将序列模式挖掘算法Prefixspan应用于中文文本新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模......
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类......
提出了一种基于网络蜘蛛的新词发现算法,通过该算法可以快速有效地搜集互联网资料,并从中自动发现新词。实验表明,该方法可以从网......
商品词是电子商务领域描述商品的新词。主要介绍基于购物网站用户搜索日志的商品词发现的方法。该方法从搜索日志中提取用户查询,......
在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语......
针对传统的新词发现中,数据的稀疏性使一些低频新词无法识别等问题,提出一种对分词结果计算信息量且将深度学习模型BiLstm-CRF用于......
新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出......
汉语科技词系统是科技词汇知识深层次组织与应用服务工具的集成体系。文章首先概述了词系统的内涵,然后总结了三年来在词汇自动......
新词发现和命名实体识别是数据挖掘领域的两个重要研究课题。新词发现技术能够识别出未登录词进而改善中文分词的精度。命名实体识......
针对企事业单位编目文档排版效率与规范等问题,本论述利用递归下降分析技术对编目内容分类整理,基于新词自动发现技术的格式规范纠......
IT技术交流社区是广大技术爱好者和从业人员交流和分享计算机与互联网技术的重要平台。技术社区中的用户每天都会产生大量的技术文......
随着互联网的快速发展,大量信息不断涌现,推荐系统正在起着至关重要的作用,而每位用户所关心和感兴趣的内容都不尽相同,所以为每位......
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此,提出了一种集成算法--新词发现-双向长短期记忆网络-梯度提升算法......
在中文自然语言处理领域中,分词是非常重要的步骤之一,它是关键词抽取、文本自动摘要、文本聚类的基础,分词结果的好坏直接影响进......
数据挖掘中结构化数据的挖掘分析相对成熟,但非结构化的数据挖掘分析面临许多挑战。文本数据是一种非常重要的非结构化数据,对于该......
文本挖掘是指通过计算机对文本进行的信息挖掘、含义分析、分类标注和关联分析等处理,可以从文本中提取出能为人所用的信息乃至于......
新词发现是自然语言处理中的一项重要研究工作,本文先对corpus进行最小粒度分词,采用N-gram思想将最小粒度分词结果重组,最后给出......
在互信息与左右熵识别新词的基础上,针对股票市场建立了金融情感词典,提出结合粒子群阈值优化改进的贝叶斯算法,并对每条评论的情......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接......
微博是一种近些年来兴起的互联网媒体,每时每刻都会产生各种新生的网络词汇。对于新词发现算法中表现出的缺点,文中提出了一种基于......